home *** CD-ROM | disk | FTP | other *** search
/ Internet Info 1994 March / Internet Info CD-ROM (Walnut Creek) (March 1994).iso / answers / comp / comp-speech-faq / part1 < prev    next >
Text File  |  1994-04-16  |  34KB  |  834 lines

  1. Path: bloom-beacon.mit.edu!senator-bedfellow.mit.edu!faqserv
  2. From: andrewh@speech.su.oz.au (Andrew Hunt)
  3. Newsgroups: comp.speech,comp.answers,news.answers
  4. Subject: comp.speech Frequently Asked Questions - part 1/3
  5. Supersedes: <comp-speech-faq/part1_764040899@rtfm.mit.edu>
  6. Followup-To: comp.speech
  7. Date: 16 Apr 1994 13:07:57 GMT
  8. Organization: Speech Technology Group, The University of Sydney
  9. Lines: 814
  10. Approved: news-answers-request@MIT.Edu
  11. Expires: 28 May 1994 13:05:48 GMT
  12. Message-ID: <comp-speech-faq/part1_766501548@rtfm.mit.edu>
  13. Reply-To: andrewh@speech.su.oz.au (Andrew Hunt)
  14. NNTP-Posting-Host: bloom-picayune.mit.edu
  15. Summary: Useful information about Speech Technology
  16. X-Last-Updated: 1994/04/06
  17. Originator: faqserv@bloom-picayune.MIT.EDU
  18. Xref: bloom-beacon.mit.edu comp.speech:2283 comp.answers:4932 news.answers:18146
  19.  
  20. Archive-name: comp-speech-faq/part1
  21. Last-modified: 1994/04/06
  22.  
  23.  
  24.                        comp.speech
  25.  
  26.                 Frequently Asked Questions
  27.                 ==========================
  28.  
  29. This document is an attempt to answer commonly asked questions and to
  30. reduce the bandwidth taken up by these posts and their associated replies.
  31. If you have a question, please check this file before you post.
  32.  
  33. The FAQ is not meant to discuss any topic exhaustively.  It will hopefully
  34. provide readers with pointers on where to find useful information.  It also
  35. tries to list useful material available elsewhere on the net.
  36.  
  37. If you have not already read the Usenet introductory material posted to
  38. "news.announce.newusers", please do.  For help with FTP (file transfer
  39. protocol) look for a regular posting of "Anonymous FTP List - FAQ" in
  40. comp.misc, comp.archives.admin or news.answers.
  41.  
  42.  
  43. This FAQ is posted every 4 weeks to comp.speech, comp.answers & news.answers.
  44.  
  45.  
  46. It is also available for anonymous ftp from the comp.speech archive site
  47.     svr-ftp.eng.cam.ac.uk:/comp.speech/FAQ
  48. It is also available from the news.answers ftp site (and its mirrors) as
  49.     rtfm.mit.edu:/pub/usenet/news.answers/comp-speech-faq
  50. It is also available by sending email to <mail-server@rtfm.mit.edu> with
  51.     send usenet/news.answers/comp-speech-faq/*
  52.     in one line of the body of the message.
  53.  
  54.  
  55. Admin
  56. -----
  57.  
  58. This release brings updates on a number of synthesis and recognition 
  59. products as well as a number of new entries.  Keeping up-to-date with
  60. the increasing number of new Windows products is becoming more 
  61. difficult.  Any help with this will be greatly appreciated.
  62.  
  63.  
  64. Cheers,
  65.  
  66. Andrew Hunt
  67. Speech Technology Research Group    email: andrewh@speech.su.oz.au
  68. Department of Electrical Engineering    Ph:  61-2-692 4509
  69. University of Sydney, NSW, Australia.    Fax: 61-2-692 3847
  70.  
  71.  
  72. ========================== Acknowledgements ===========================
  73.  
  74. Thanks to the following for their significant comments and contributions.
  75.  
  76. Barry Arons        <barons@media-lab.mit.edu>
  77. Joe Campbell        <jpcampb@afterlife.ncsc.mil>
  78. Oliver Jakobs        <jakobs@ldv01.Uni-Trier.de>
  79. Sonja Kowalewski    <kowa@uniko.uni-koblenz.de>
  80. Tony Robinson        <ajr@eng.cam.ac.uk>
  81. Mike            <mike%jim.uucp@wupost.wustl.edu>
  82.  
  83. Many others have provided useful information.  Thanks to all.
  84.  
  85.  
  86. ============================ Contents =================================
  87.  
  88. SECTION 1 - General
  89.  
  90. Q1.1: What is comp.speech?
  91. Q1.2: Where are the comp.speech archives?
  92. Q1.3: Common abbreviations and jargon.
  93. Q1.4: What are related newsgroups and mailing lists?
  94. Q1.5: What are related journals and conferences?
  95. Q1.6: What resources are available as handicap aids?
  96. Q1.7: What speech data is available?
  97. Q1.8: Speech File Formats, Conversion and Playing.
  98. Q1.9: What "Speech Laboratory Environments" are available?
  99. Q1.10: Miscelaneous Software and Other Resources.
  100.  
  101. SECTION 2 - Signal Processing for Speech
  102.  
  103. Q2.1: What sampling do I need for speech?
  104. Q2.2: How do I find the pitch of a speech signal?
  105. Q2.3: How do I find the start and end points of a speech signal?
  106. Q2.4: Where can I find FFT software?
  107. Q2.5: What signal processing techniques are used in speech technology?
  108. Q2.6: What speech sampling and signal processing hardware can I use?
  109. Q2.7: How do I convert to/from mu-law format?
  110.  
  111. SECTION 3 - Speech Coding and Compression
  112.  
  113. Q3.1: Speech compression techniques.
  114. Q3.2: What are some good references/books on coding/compression?
  115. Q3.3: What software is available?
  116.  
  117. SECTION 4 - Natural Language Processing
  118.  
  119. Q4.1: What are some good references/books on NLP?
  120. Q4.2: What NLP software is available?
  121.  
  122. SECTION 5 - Speech Synthesis
  123.  
  124. Q5.1: What is speech synthesis?
  125. Q5.2: How can speech synthesis be performed?
  126. Q5.3: What are some good references/books on synthesis?
  127. Q5.4: What software/hardware is available?
  128.  
  129. SECTION 6 - Speech Recognition
  130.  
  131. Q6.1: What is speech recognition?
  132. Q6.2: How can I build a very simple speech recogniser?
  133. Q6.2: What does speaker dependent/adaptive/independent mean?
  134. Q6.3: What does small/medium/large/very-large vocabulary mean?
  135. Q6.4: What does continuous speech or isolated-word mean?
  136. Q6.5: How is speech recognition done?
  137. Q6.6: What are some good references/books on recognition?
  138. Q6.7: What speech recognition packages are available?
  139.  
  140. =======================================================================
  141.  
  142. SECTION 1 - General
  143.  
  144. Q1.1: What is comp.speech?
  145.  
  146. comp.speech is a newsgroup for discussion of speech technology and 
  147. speech science.  It covers a wide range of issues from application of 
  148. speech technology, to research, to products and lots more.  By nature 
  149. speech technology is an inter-disciplinary field and the newsgroup reflects 
  150. this.  However, computer application is the basic theme of the group.
  151.  
  152. The following is a list of topics but does not cover all matters related 
  153. to the field - no order of importance is implied.
  154.  
  155. [1] Speech Recognition - discussion of methodologies, training, techniques, 
  156. results and applications.  This should cover the application of techniques 
  157. including HMMs, neural-nets and so on to the field.
  158.  
  159. [2] Speech Synthesis - discussion concerning theoretical and practical
  160. issues associated with the design of speech synthesis systems.
  161.  
  162. [3] Speech Coding and Compression - both research and application matters.
  163.  
  164. [4] Phonetic/Linguistic Issues - coverage of linguistic and phonetic issues 
  165. which are relevant to speech technology applications.  Could cover parsing, 
  166. natural language processing, phonology and prosodic work.
  167.  
  168. [5] Speech System Design - issues relating to the application of speech
  169. technology to real-world problems.  Includes the design of user interfaces, 
  170. the building of real-time systems and so on.
  171.  
  172. [6] Other matters - relevant conferences, books, public domain software, 
  173. hardware and related products.
  174.  
  175. ------------------------------------------------------------------------
  176.  
  177. Q1.2: Where are the comp.speech archives?
  178.  
  179. comp.speech is being archived for anonymous ftp.
  180.  
  181.     ftp site:    svr-ftp.eng.cam.ac.uk (or 129.169.24.20).  
  182.     directory:    comp.speech/archive
  183.  
  184. comp.speech/archive contains the articles as they arrive.  Batches of 100
  185. articles are grouped into a shar file, along with an associated file of
  186. Subject lines.
  187.  
  188. Other useful information is also available in comp.speech/info.
  189.  
  190. ------------------------------------------------------------------------
  191.  
  192. Q1.3: Common abbreviations and jargon.
  193.  
  194. ANN   - Artificial Neural Network.
  195. ASR   - Automatic Speech Recognition.
  196. ASSP  - Acoustics Speech and Signal Processing
  197. AVIOS - American Voice I/O Society
  198. CELP  - Code-book excited linear prediction.
  199. COLING - Computational Linguistics
  200. DTW   - Dynamic time warping.
  201. FAQ   - Frequently asked questions.
  202. HMM   - Hidden markov model.
  203. IEEE  - Institute of Electrical and Electronics Engineers
  204. JASA  - Journal of the Acoustic Society of America
  205. LPC   - Linear predictive coding.
  206. LVQ   - Learned vector quantisation.
  207. NLP   - Natural Language Processing.
  208. NN    - Neural Network.
  209. TI    - Texas Instruments.
  210. TIMIT - A big speech database from TI and MIT - see Q1.6
  211. TTS   - Text-To-Speech (i.e. synthesis).
  212. VQ    - Vector Quantisation.
  213.  
  214. ------------------------------------------------------------------------
  215.  
  216. Q1.4: What are related newsgroups and mailing lists?
  217.  
  218.  
  219. NEWGROUPS
  220.  
  221. comp.ai - Artificial Intelligence newsgroup.  
  222.      Postings on general AI issues, language processing and AI techniques.
  223.      Has a good FAQ including NLP, NN and other AI information.
  224.  
  225. comp.ai.nat-lang - Natural Language Processing Group
  226.      Postings regarding Natural Language Processing.  Set up to cover
  227.      a broard range of related issues and different viewpoints.
  228.  
  229. comp.ai.nlang-know-rep - Natural Language Knowledge Representation
  230.      Moderated group covering Natural Language.
  231.  
  232. comp.ai.neural-nets - discussion of Neural Networks and related issues.  
  233.      There are often posting on speech related matters - phonetic recognition,
  234.      connectionist grammars and so on.
  235.  
  236. comp.compression - occasional articles on compression of speech.
  237.      FAQ for comp.compression has some info on audio compression standards.
  238.  
  239. comp.dcom.telecom - Telecommunications newsgroup.
  240.      Has occasional articles on voice products.
  241.  
  242. comp.dsp - discussion of signal processing - hardware and algorithms and more.
  243.      Has a good FAQ posting.
  244.      Has a regular posting of a comprehensive list of Audio File Formats.
  245.  
  246. comp.multimedia - Multi-Media discussion group.
  247.      Has occasional articles on voice I/O.
  248.  
  249. sci.lang - Language.  
  250.      Discussion about phonetics, phonology, grammar, etymology and lots more.
  251.  
  252. alt.sci.physics.acoustics - some discussion of speech production & perception.
  253.  
  254. alt.binaries.sounds.misc - posting of various sound samples
  255. alt.binaries.sounds.d - discussion about sound samples, recording and playback.
  256.  
  257.  
  258. MAILING LISTS
  259.  
  260. ECTL - Electronic Communal Temporal Lobe
  261.      Founder & Moderator: David Leip
  262.      Moderated mailing list for researchers with interests in computer speech 
  263.      interfaces. This list serves a broad community including persons from 
  264.      signal processing, AI, linguistics and human factors.
  265.      
  266.      To subscribe, send the following information to: 
  267.         ectl-request@snowhite.cis.uoguelph.ca
  268.         name, institute, department, daytime phone & e-mail address
  269.  
  270.      To access the archive, ftp snowhite.cis.uoguelph.ca, login as anonymous,
  271.      and supply your local userid as a password.  All the ECTL things can be
  272.      found in pub/ectl.
  273.  
  274. Prosody Mailing List
  275.     Unmoderated mailing list for discussion of prosody.  The aim is
  276.     to facilitate the spread of information relating to the research
  277.     of prosody by creating a network of researchers in the field.
  278.     If you want to participate, send the following one-line
  279.     message to "listserv@msu.edu" :-
  280.  
  281.         subscribe prosody Your Name
  282.  
  283. foNETiks
  284.     A moderated monthly newsletter distributed by e-mail. It carries 
  285.     job advertisements, notices of conferences, and other news of
  286.     general interest to phoneticians, speech scientists and others 
  287.     The editors are Linda Shockey and Gerry Docherty.  To subscribe
  288.     send the following 1 line message to 'mailbase@mailbase.ac.uk'
  289.  
  290.     join fonetiks your_first_name your_second_name
  291.  
  292. Digital Mobile Radio
  293.      Covers lots of areas include some speech topics including speech 
  294.      coding and speech compression.
  295.      Mail Peter Decker (dec@dfv.rwth-aachen.de) to subscribe.
  296.  
  297. ------------------------------------------------------------------------
  298.  
  299. Q1.5: What are related journals and conferences?
  300.  
  301. Try the following commercially oriented magazine:-
  302.  
  303.     Speech Technology - no longer published
  304.     Voice Technology News
  305.  
  306. Try the following technical journals (some contact addresses below):-
  307.  
  308.     IEEE Transactions on Speech and Audio Processing (from Jan 93)
  309.     IEEE Transactions on Acoustics, Speech, and Signal Processing
  310.         (ASSP) - now obsolete.
  311.     Computational Linguistics (COLING)
  312.     Computer Speech and Language
  313.     Journal of the Acoustical Society of America (JASA)
  314.     Transactions of IEEE ASSP
  315.     AVIOS Journal
  316.     ASR News
  317.  
  318. Try the following conferences:-
  319.  
  320.  ICASSP        Intl. Conference on Acoustics Speech and Signal Processing (IEEE)
  321.  ICSLP        Intl. Conference on Spoken Language Processing
  322.  EUROSPEECH European Conference on Speech Communication and Technology
  323.  AVIOS      American Voice I/O Society Conference
  324.  SST        Australian Speech Science and Technology Conference
  325.         SpeechTech
  326.  
  327.  
  328. Here are a few contact addresses:-
  329.  
  330. Publications:    IEEE Transactions on Speech and Audio Processing (from Jan 93)
  331.         IEEE Transactions on Acoustics, Speech, and Signal Processing
  332.             (ASSP) - now obsolete.
  333. Organization:    Institute of Electrical and Electronics Engineers (IEEE)
  334. Address:    IEEE Service Center
  335.         445 Hoes Lane
  336.         PO Box 1331
  337.         Piscataway, NJ  08855, USA
  338. Phone number:    1-800-678-IEEE
  339.         (201)981-0060
  340.  
  341. Publications:    Computer Speech and Language
  342. Organization:    Academic Press, Ltd.
  343. Address:    24-28 Oval Rd
  344.         London NW1
  345.         England
  346. Price:        $136 (Institutions), $58 (Individuals)
  347.  
  348. Publications:    Association for Computational Linguistics
  349. Organization:    Association for Computational Linguistics
  350. Address:    MIT Press Journals
  351.         55 Hayward St
  352.         Cambridge, MA  02142
  353. Phone number:     (617)253-2889
  354.  
  355.  
  356. ------------------------------------------------------------------------
  357.  
  358. Q1.6: What resources are available as handicap aids?
  359.  
  360. Can anyone provide information on speech technology aids for the deaf, 
  361. blind, speech impaired, physically impaired and other groups who may
  362. benefit from speech technology?
  363.  
  364.  
  365. Product Name:    SpeechViewer II
  366. Platform:    IBM Machines from Mod 25 on.
  367. Description:    SpeechViewer II is a speech therapy tool.  It provided 
  368.     graphical feedback of various speech features so that speech 
  369.     impaired individuals can improve their speech.  It works with an 
  370.     audio bandwidth of 7.3 Khz and thus allows the therapist to work 
  371.     with sustained vowels and fricatives.  A wide range of graphics
  372.     are used to provide adequate variability to hold client interest.
  373.     An extensive set of statistics are gathered which allows a therapist 
  374.     to do research or keep therapy records.
  375.     The speech therapy modules are:
  376.      o Awareness - Sound, Loudness, Pitch, Voicing Onset, Voicing
  377.      o Skill Building - Pitch, Voicing, Phonology
  378.      o Patterning - Pitch & Loudness - Waveform & Spectrogram, Spectra
  379.      o Clinical Management - Profiles, Models, Client Data
  380. Hardware: Requires an IBM M-ACPA (Multimedia-Audio Capture Playback
  381.     Adapter).  It has a TI TMS320C25 DSP chip.  The input sampling 
  382.     rate is 44.1 Khz stereo, 88.2 Khz mono.  This is a 16 bit card.  
  383.     It has the following jacks:  mic in, stereo line in, stereo line 
  384.     out, speaker out.  Note: This card is being replaced by Mwave 
  385.     technology.  For more info on Mwave contact Texas Instruments.
  386. Price:    The software is $2130 list, $1491 educational, part number 92F2066.
  387.     The M-ACPA is $370 list, $222 educational, part number 92F3378.
  388.     The MicroChannel adapter part number is 92F3379 (same price).
  389. Contact: The Psychological Corporation (TPC) [IBM Authorized Remarketer]
  390.     Phone: 1-800-228-0752
  391.     Or contact IBM on 1-800-426-4832.
  392.  
  393. ------------------------------------------------------------------------
  394.  
  395. Q1.7: What speech data is available?
  396.  
  397. A wide range of speech databases have been collected.  These databases 
  398. are primarily for the development of speech synthesis/recognition and for 
  399. linguistic research.  
  400.  
  401. Some databases are free but most appear to be available for a small cost.
  402. The databases normally require lots of storage space - do not expect to be 
  403. able to ftp all the data you want.
  404.  
  405. [There are too many to list here in detail - perhaps someone would like to 
  406.  set up a special posting on speech databases?]
  407.  
  408.  
  409.     PHONEMIC SAMPLES
  410.     ================
  411.  
  412. First, some basic data.  The following sites have samples of English phonemes
  413. (American accent I believe) in Sun audio format files.  See Question 1.7
  414. for information on audio file formats.
  415.  
  416.         sounds.sdsu.edu:/.1/phonemes
  417.         phloem.uoregon.edu:/pub/Sun4/lib/phonemes
  418.         sunsite.unc.edu:/pub/multimedia/sun-sounds/phonemes
  419.  
  420.  
  421.     HOMOPHONE LIST
  422.     ==============
  423.  
  424. A list of homophones in General American English is available by anonymous 
  425. FTP from the comp.speech archive site:
  426.  
  427.   machine name: svr-ftp.eng.cam.ac.uk
  428.   directory:    comp.speech/data
  429.   file name:    homophones-1.01.txt
  430.  
  431.  
  432.     LINGUISTIC DATA CONSORTIUM (LDC)
  433.     ================================
  434.  
  435. Information about the Linguistic Data Consortium is available via
  436. anonymous ftp from:    ftp.cis.upenn.edu    (130.91.6.8)
  437. in the directory:    /pub/ldc
  438.  
  439. Here are some excerpts from the files in that directory:
  440.  
  441. Briefly stated, the LDC has been established to broaden the collection
  442. and distribution of speech and natural language data bases for the
  443. purposes of research and technology development in automatic speech
  444. recognition, natural language processing and other areas where large
  445. amounts of linguistic data are needed.
  446.  
  447. Here is the brief list of corpora:
  448.  
  449.    * The TIMIT and NTIMIT speech corpora
  450.    * The Resource Management speech corpus (RM1, RM2)
  451.    * The Air Travel Information System (ATIS0) speech corpus
  452.    * The Association for Computational Linguistics - Data Collection 
  453.      Initiative text corpus (ACL-DCI)
  454.    * The TI Connected Digits speech corpus (TIDIGITS)
  455.    * The TI 46-word Isolated Word speech corpus (TI-46)
  456.    * The Road Rally conversational speech corpora (including "Stonehenge" 
  457.      and "Waterloo" corpora)
  458.    * The Tipster Information Retrieval Test Collection
  459.    * The Switchboard speech corpus ("Credit Card" excerpts and portions
  460.      of the complete Switchboard collection)
  461.  
  462. Further resources to be made available within the first year (or two):
  463.  
  464.    * The Machine-Readable Spoken English speech corpus (MARSEC)
  465.    * The Edinburgh Map Task speech corpus
  466.    * The Message Understanding Conference (MUC) text corpus of FBI 
  467.      terrorist reports
  468.    * The Continuous Speech Recognition - Wall Street Journal speech 
  469.      corpus (WSJ-CSR)
  470.    * The Penn Treebank parsed/tagged text corpus
  471.    * The Multi-site ATIS speech corpus (ATIS2)
  472.    * The Air Traffic Control (ATC) speech corpus
  473.    * The Hansard English/French parallel text corpus
  474.    * The European Corpus Initiative multi-language text corpus (ECI) 
  475.    * The Int'l Labor Organization/Int'l Trade Union multi-language 
  476.      text corpus (ILO/ITU)
  477.    * Machine-readable dictionaries/lexical data bases (COMLEX, CELEX)
  478.  
  479. The files in the directory include more detailed information on the 
  480. individual databases.  For further information contact
  481.  
  482.     Linguistic Data Consortium
  483.     441 Williams Hall
  484.     University of Pennsylvania
  485.     Philadelphia, PA 19104-6305
  486.     Phone:   +1 (215) 898-0464
  487.     Fax:     +1 (215) 573-2175
  488.     e-mail:  ldc@unagi.cis.upenn.edu
  489.  
  490.  
  491.     Center for Spoken Language Understanding (CSLU)
  492.     ===============================================
  493.  
  494. 1. The ISOLET speech database of spoken letters of the English alphabet. 
  495. The speech is high quality (16 kHz with a noise cancelling microphone).  
  496. 150 speakers x 26 letters of the English alphabet twice in random order.  
  497. The "ISOLET" data base can be purchased for $100 by sending an email request 
  498. to vincew@cse.ogi.edu.  (This covers handling, shipping and medium costs).  
  499. The data base comes with a technical report describing the data.
  500.  
  501. 2. CSLU has a telephone speech corpus of 1000 English alphabets.  Callers 
  502. recite the alphabet with brief pauses between letters.  This database is 
  503. available to not-for-profit institutions for $100. The data base is described 
  504. in the proceedings of the International Conference on Spoken Language 
  505. Processing.  Contact vincew@cse.ogi.edu if interested.
  506.  
  507.  
  508.        PhonDat - A Large Database of Spoken German
  509.        ===========================================
  510.  
  511. The PhonDat continuous speech corpora are now available on
  512. CD-ROM media (ISO 9660 format).
  513.  
  514.     PhonDat I  (Diphone Corpus)        : 6 CDs    (1140.- DM)
  515.     PhonDat II (Train Enquiries Corpus): 1 CD     ( 190.- DM)
  516.  
  517. PhonDat I comprises approx. 20.000, PhonDat II approx. 1500 
  518. signal files in high quality 16-bit 16 KHz recording.  The
  519. corpora come with a documentation containing the orthographic 
  520. transcription and a citation form of the utterances, as well as a 
  521. detailed file format description.  A narrow phonetic transcription 
  522. is available for selected files from corpus I and II.
  523.  
  524. For information and orders contact
  525.  
  526.    Barbara Eisen
  527.    Institut fuer Phonetik
  528.    Schellingstr. 3 / II
  529.    D 80799 Munich 40
  530.  
  531.    Tel: +49 / 89 / 2180 -2454 or -2758
  532.    Fax: +49 / 89 / 280 03 62
  533.  
  534.  
  535.           Oxford Acoustic Phonetic Database
  536.           =================================
  537.  
  538. Available on compact Disc, from J.B. Pickering and B.S. Rosner.
  539. It contains data on vowel-consonant and consonant-vowel combinations 
  540. in both stressed and unstressed locations.  The language covered 
  541. include French, German, Hungarian, Italian, Japanese, British English, 
  542. Spanish and English.  
  543.  
  544. Does anyone know a contact email or snail mail address?
  545.  
  546. ------------------------------------------------------------------------
  547.  
  548. Q1.8: Speech File Formats, Conversion and Playing.
  549.  
  550. Section 2 of this FAQ has information on mu-law coding.
  551.  
  552. A very good and very comprehensive list of audio file formats is prepared
  553. by Guido van Rossum.  The list is posted regularly to comp.dsp and
  554. alt.binaries.sounds.misc, amongst others.  It includes information on 
  555. sampling rates, hardware, compression techniques, file format definitions, 
  556. format conversion, standards, programming hints and lots more.  It is much
  557. too long to include within this posting.
  558.  
  559. It is also available by ftp 
  560.     from:         ftp.cwi.nl
  561.     directory:    /pub 
  562.     file:         AudioFormats<version>
  563.  
  564. ------------------------------------------------------------------------
  565.  
  566. Q1.9: What "Speech Laboratory Environments" are available?
  567.  
  568. First, what is a Speech Laboratory Environment?  A speech lab is a
  569. software package which provides the capability of recording, playing,
  570. analysing, processing, displaying and storing speech.  Your computer
  571. will require audio input/output capability.  The different packages
  572. vary greatly in features and capability - best to know what you want
  573. before you start looking around.
  574.  
  575. Most general purpose audio processing packages will be able to process speech
  576. but do not necessarily have some specialised capabilities for speech (e.g.
  577. formant analysis).
  578.  
  579. The following article provides a good survey.
  580.  
  581.   Read, C., Buder, E., & Kent, R. "Speech Analysis Systems: An Evaluation"
  582.   Journal of Speech and Hearing Research, pp 314-332, April 1992.
  583.  
  584.  
  585. Package: Entropic Signal Processing System (ESPS) and Waves
  586. Platform: Range of Unix platforms.
  587. Description: ESPS is a very comprehensive set of speech analysis/processing 
  588.     tools for the UNIX environment.  The package includes UNIX commands, 
  589.     and a comprehensive C library (which can be accessed from other 
  590.     languages).  Waves is a graphical front-end for speech processing.  
  591.     Speech waveforms, spectrograms, pitch traces etc can be displayed, 
  592.     edited and processed in X windows and Openwindows (versions 2 & 3).
  593.     The HTK (Hidden Markov Model Toolkit) is now available from Entropic.
  594.     HTK is described in some detail in Section 5 of this FAQ - the
  595.     section on Speech Recognition.
  596. Cost:   On request.
  597. Contact: Entropic Research Laboratory, Washington Research Laboratory,
  598.     600 Pennsylvania Ave, S.E. Suite 202, Washington, D.C. 20003
  599.     (202) 547-1420.  email - info@wrl.epi.com
  600.  
  601.  
  602. Package: CSRE: Canadian Speech Research Environment
  603. Platform: IBM/AT-compatibles
  604. Description: CSRE is a comprehensive, microcomputer-based system designed 
  605.     to support speech research.  CSRE provides a powerful, low-cost 
  606.     facility in support of speech research, using mass-produced and 
  607.     widely-available hardware. The project is non-profit, and relies 
  608.     on the cooperation of researchers at a number of institutions and
  609.     fees generated when the software is distributed.  Functions 
  610.     include speech capture, editing, and replay; several alternative 
  611.     spectral analysis procedures, with color and surface/3D displays; 
  612.     parameter extraction/tracking and tools to automate measurement 
  613.     and support data logging; alternative pitch-extraction systems; 
  614.     parametric speech (KLATT80) and non-speech acoustic synthesis, 
  615.     with a variety of supporting productivity tools; and a 
  616.     comprehensive experiment generator, to support behavioral testing 
  617.     using a variety of common testing protocols.
  618.     A paper about the whole package can be found in:
  619.        Jamieson D.G. et al, "CSRE: A Speech Research Environment",
  620.        Proc. of the Second Intl. Conf. on Spoken Language Processing,
  621.        Edmonton: University of Alberta, pp. 1127-1130.
  622. Hardware:     Can use a range of data aqcuisition/DSP
  623. Cost:    Distributed on a cost recovery basis.
  624. Availability: For more information on availability
  625.     contact Krystyna Marciniak - email march@uwovax.uwo.ca
  626.     Tel (519) 661-3901  Fax (519) 661-3805.
  627.     For technical information  - email ramji@uwovax.uwo.ca
  628. Note: Also included in Q5.4 on speech synthesis packages.
  629.  
  630.  
  631. Package: OGI Speech Tools from the Center for Spoken Language 
  632.     Understanding (CSLU) at the Oregon Graduate Institute of Science 
  633.     and Technology (Portland Oregon)
  634. Platform: Unix????
  635. Description: The OGI Speech tools include :-
  636.     1. An X windows display tool (LYRE) for displaying data in a time 
  637.        synchronous fashion for a. the speech signal b. spectrograms
  638.             c. phoneme labels, and other information.
  639.     2. A Neural Network (NOPT) training package.
  640.     3. An set of C library routines (LIBNSPEECH) for the manipulation 
  641.        of speech data, including:  a. PLP Analysis, b. Rasta PLP 
  642.        Analysis, c. Linear Predictive Coding, d. Mel Cepstrum Coding,
  643.        e. Fast Fourier Transform
  644.     4. A set of utilities for converting file formats such as ADC, NIST,
  645.        mu-law, binary files, and ascii.  Includes filtering.
  646.     5. A database utility (find_phone) to automate speech database
  647.        related enquiries.  It allows the user to specify a particular 
  648.        label or set of labels in a given context, display all occurrences 
  649.        of the label, and relabel the occurrences if desired.
  650.     6. A Vector-Quantizer based on the Linde Buzo and Gray (LBG) 
  651.        algorithm.
  652.     7. A set of PEARL Scripts which have been used mainly to automate
  653.        the use of the OGI Speech Tools. 
  654.     8. MAN Pages for all routines and programs developed, as well as
  655.        a User manual in both in postscript and {\bf tex} format.
  656. Misc: Software is written in ANSI C.
  657. Availability: By anonymous ftp from
  658.     speech.cse.ogi.edu:/pub/tools/
  659. Contact: Try tools@cse.ogi.edu
  660.  
  661.  
  662. Package: Signalyze 3.0 from InfoSignal
  663. Platform: Macintosh
  664. Description: Signalyze's basic conception revolves around up to 100 
  665.     signals, displayed synchronously in HyperCard fashion on "cards".
  666.     The program offers a complement of signal editing features, 
  667.     quite a few spectral analysis tools, manual scoring tools, pitch 
  668.     extraction routines, a good set of signal manipulation tools, and 
  669.     extensive input-output capacity.
  670.     Handles multiple file formats: Signalyze, MacSpeech Lab, AudioMedia, 
  671.     SoundDesigner II, SoundEdit/MacRecorder, SoundWave, three sound 
  672.     resource formats, and ASCII-text.
  673.     Sound I/O: Direct sound input from MacRecorder and similar devices, 
  674.     AudioMedia, AudioMedia II and AD IN, some MacADIOS boards and devices,
  675.     Apple sound input (built-in microphone). Sound output via Macintosh 
  676.     internal sound, via SoundManager 3.0, some MacADIOS boards and devices
  677.     as well as via the Digidesign 16-bit boards.
  678.     It has a range of capabilities for creating, editing and manipulating
  679.     label files with flexibility in labelling format.
  680. Compatibility: MacPlus and higher (including II, IIx, IIcx, IIci, IIfx, 
  681.     IIvx, IIvi, Portable, all PowerBooks, Centris and Quadras). Takes 
  682.     advantage of large and multiple screens and 16/256 color/grayscales. 
  683.     System 7.0 compatible. Runs in background with adjustable priority.
  684. Misc: A demo available upon request.
  685.     Manuals and tutorial included.
  686.     It is available in English, French, and German.
  687.     An UPDATER to version 2.48 is now available in:
  688.       - The UNIL Gopher server (see last page of InfoSignal News 8)
  689.       - The LAIP FTP server. Address: MACFL4082.unil.ch, machine no.
  690.         130.223.104.31, login: anonymous, password: your email
  691.     Also available are a demo program, and current questions and answers.
  692. Cost: Individual licence US$350, site license US$500, plus shipping.
  693.     Upgrades from version 2.0 are available.
  694. Contact: North America - Network Technology Corporation
  695.         91 Baldwin St., Charlestown MA 02129
  696.         Fax: 617-241-5064   Phone: 617-241-9205
  697.     Elsewhere -  InfoSignal Inc.
  698.         C.P. 73, 1015 LAUSANNE, Switzerland, 
  699.         FAX: +41 21 691-1372,
  700.         Email: 76357.1213@COMPUSERVE.COM.
  701.  
  702.  
  703. Package: Kay Elemetrics CSL (Computer Speech Lab) 4300
  704. Platform: Minimum IBM PC-AT compatible with extended memory (min 2MB) 
  705.     with at least VGA graphics. Optimal would be 386 or 486 machine 
  706.     with more RAM for handling larger amounts of data.
  707. Description: Speech analysis package, with optional separate LPC program 
  708.     for analysis/synthesis. Uses its own file format for data, but has 
  709.     some ability to export data as ascii. The main editing/analysis prog 
  710.     (but not the LPC part) has its own macro language, making it easy to 
  711.     perform repetitive tasks.  Probably not much use without the extra 
  712.     LPC program, which also allows manipulation of pitch, formant and 
  713.     bandwidth parameters.
  714.     Hardware includes an internal DSP board for the PC (requires ISA 
  715.     slot), and an external module containing signal processing chips 
  716.     which does A/D and D/A conversion. 
  717.     A speaker and microphone are supplied.
  718. Misc:  A programmers kit is available for programming signal processing
  719.     chips (experts only).
  720.     Manuals included.
  721. Cost: Recently approx 6000 pounds sterling. (Less in USA?)
  722. Availibility: UK distributors are Wessex Electronics, 
  723.         114-116 North Street, Downend, Bristol, B16 5SE 
  724.         Tel: 0272 571404. 
  725.     In USA: Kay Elemetrics Corp, 
  726.         12 Maple Avenue, PO Box 2025, Pine Brook, NJ 07058-9798
  727.         Tel:(201) 227-7760
  728.  
  729.  
  730. Package: MacSpeech Lab II (MSL II)
  731. Platform: Macintosh
  732. Description: A sound analysis and acquisition for Macs.  MSL II delivers 
  733.     the most common functions for speech analysis (FFTs, LPCs, f0 
  734.     extraction, etc.) & produces grayscale spectrographic displays.
  735.     Can be used for various speech technology and phonetic training
  736.     tasks.  The software an trade off accuracy and speech.
  737. Hardware: requires MacADIOS ("Macintosh Analog/Digital Input/Output
  738.     System") hardware for speech I/O at 12/16 bits.  
  739. Misc: Software no longer updated by GW Instruments; MSL soft/hardware will 
  740.     not perform input/output on Quadras, for example, though analysis 
  741.     seems fine.  Known to operate properly on systems as high as IIcx & 
  742.     II fx.
  743. Cost: $4990 (in May '92 price list; no MSL soft/hardware package
  744.     listed in January '93).
  745. Contact: GW Instruments
  746.     35 Medford Street, Somerville, MA  02143
  747.     Phone: (617) 625-4096   Fax: (617) 625-1322
  748.  
  749.  
  750. Package: Ptolemy
  751. Platform: Sun SPARC, DecStation (MIPS), HP (hppa).
  752. Description: Ptolemy provides a highly flexible foundation for the 
  753.     specification, simulation, and rapid prototyping of systems.  
  754.     It is an object oriented framework within which diverse models 
  755.     of computation can co-exist and interact.  Ptolemy can be used 
  756.     to model entire systems.
  757.     Ptolemy has been used for a broad range of applications including
  758.     signal processing, telecomunications, parallel processing, wireless
  759.     communications, network design, radio astronomy, real time systems, 
  760.     and hardware/software co-design.  Ptolemy has also been used as a lab
  761.     for signal processing and communications courses.
  762.     Ptolemy has been developed at UC Berkeley over the past 3 years.
  763.     Further information, including papers and the complete release
  764.     notes, is available from the FTP site.
  765. Cost: Free
  766. Availability: The source code, binaries, and documentation are available 
  767.     by anonymous ftp from "ptolemy.bekeley.edu" - see the README file -
  768.         ptolemy.berkeley.edu:/pub/README
  769.  
  770.  
  771. Package: Khoros
  772. Description: Public domain image processing package with a basic DSP
  773.     library.  Not particularly applicable to speech, but not bad
  774.     for the price.
  775. Cost:    FREE
  776. Availability: By anonymous ftp from pprg.eece.unm.edu
  777.  
  778.  
  779. Package: SpeechViewer II
  780. Description: Speech Therapy Tool
  781.     See the detailed description in the handicap section (Q1.6).
  782.  
  783.  
  784.  
  785. Can anyone provide information on capability and availability of the
  786. following package?
  787.  
  788.     ILS ("Interactive Laboratory System")
  789.  
  790. ------------------------------------------------------------------------
  791.  
  792. Q1.10: Miscelaneous Software and Other Resources.
  793.  
  794. Resource: CMU dictionary
  795. Description: Phonemic transcriptions of 100,000 English words.
  796.     (Presumably with American English pronunciation.)
  797. Availability: By anonymous ftp from
  798.         ftp.cs.cmu.edu:project/fgdata/dict
  799.  
  800.  
  801. Package: Network Audio System Release 1.1
  802. Platforms: Various (includes SunOS, Solaris, SGI)
  803. Description: A device-independent mechanism for transferring, playing
  804.     and recording audio signals over a network.  Has a range of
  805.     features suited to networks.
  806. Cost: Free
  807. Availability: By anonymous ftp from
  808.     ftp.x.org:/contrib/netaudio/netaudio-1.1.tar.Z
  809.     Also available in the same directory are document files and
  810.     some sample sounds.
  811.  
  812. Pacakage: NEVOT (1.4v) from AT&T BL
  813. Platforms: Sun Sparc Station (SunOS 4.1.x) and Silicon Graphics
  814. Description: Audio-conferencing tool which supports both point-to-point 
  815.     and broadcasting of audio using multicast IP.
  816.     Audio encoding:
  817.                 + PCM 64kb/s 8-bits u-law encoded 8KHz PCM (G.711)
  818.                 + ADPCM 32 kb/s [Sun only] (G.721)
  819.                 + DVI ADPCM 32 kb/s
  820.                 + ADPCM 24 kb/s [Sun only] (G.723)
  821.                 + CELP 4.8 kb/s
  822.                 + LPC 2.4 kb/s
  823.     Source is available.
  824. Availability: by anonymous ftp from
  825.     gaia.cs.umass.edu:pub/nevot
  826. Contact: Henning Schulzrinne (hgs@researc.att.com)
  827.  
  828.  
  829.  
  830. Andrew Hunt
  831. Speech Technology Research Group        Ph:  61-2-692 4509
  832. Dept. of Electrical Engineering            Fax: 61-2-692 3847
  833. University of Sydney, NSW, 2006, Australia    email: andrewh@speech.su.oz.au
  834.